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Выявление зависимостей большой глубины 
на основе марковских моделей 


Построены два статистических теста для выявления зависимости в случайной последовательности и 
обнаружения отклонений вероятностного распределения элементов последовательности от равно- 
мерного. Первый тест основан на частотных статистиках цепи Маркова 5-го порядка с г частичными 
СВЯЗЯМИ, второй — на частотных статистиках цепи Маркова переменной ДЛИНЫ. Представлены 
результаты компьютерных экспериментов. 


Введение 


Выявление зависимости в случайной последовательности и обнаружение отклоне- 
ний вероятностного распределения элементов последовательности от равномерного 
являются важнейшими проблемами в защите информации [1-3], генетике [4] и других 
приложениях. Обзор существующих методов решения этих задач представлен в [2]. 
Актуальность проблемы построения новых статистических тестов [5] связана с тем, что: 
1) многие известные тесты проверяют лишь одно из вероятностных свойств, характе- 
ризующих случайную последовательность; 2) большинство тестов построено «эвристи- 
чески» и не фиксирует семейство альтернатив; 3) многие из существующих тестов не 
имеют теоретических оценок мощности. 

В данной статье разработаны два новых теста для статистической проверки 


гипотезы Ну, = {наблюдаемая последовательность есть равномерно распределенная 


случайная последовательность (РРСП)} против альтернативы Н, = Е РРСП -— это 


случайная последовательность, элементы которой независимы в совокупности и 
имеют равномерное распределение вероятностей [2]. Первый тест Гц.) основан на 
частотных статистиках новой марковской модели — цепи Маркова 5-го порядка с г 
частичными связями ЦМ(5,) [6], а второй тест Тцмид — на частотных статистиках 
цепи Маркова переменной длины [7]. Для тестов Тиме») и Тимид исследована 
мощность для семейства контигуальных альтернатив, а также проведено сравнение с 
тестом Гцм на основе частот цепи Маркова 5-го порядка [8]. 


Тест, основанный на частотных статистиках цепи 
Маркова с частичными связями 


Обозначим: А= {0,1,...,№ п — множество состояний мощности 2<М<о; 
= = А“ — мультииндекс (&-1+1 )-го порядка, >71; {х Е А} — 


однородная стационарная цепь Маркова 5-Го порядка с вероятностями одношаговых 
переходов 


2 а р пе 5+1 5+1 т? 
Ри Ро И бе ель и. Л’ Ее 4,121; 
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КР > 0 0 0 0 
ГЕ {,2....,5} — параметр, называемый числом связей; М, = (р ЗЫ, ) — целочис- 


ленный у-вектор с упорядоченными компонентами 1=т) < т <...< т $5, 


называемый шаблоном связей; О = [ч 


7+ 
Л 


, — некоторая (7+1)-мерная стохасти- 
наигН 


ческая матрица. 

Цепь Маркова {х) называется цепью Маркова 5-го порядка с г частичными 
связями и обозначается ЦМ(5,”) [6], если ее вероятности одношаговых переходов 
имеют вид: 


=: $-Н 5 
Ра Че 2 Л А ы (1) 


Соотношение (1) означает, что вероятность перехода процесса х, в состояние ],+1 
зависит не от всех 5 предыдущих состояний процесса ],..., /,, а лишь от г избранных 


состояний Л ь,..., Л. Если г = 5, то получаем цепь Маркова 5-го порядка [9]. 
Примем еще несколько обозначений: Х, = (х то а — наблюдаемая 
реализация длительности и; б,, — символ Кронекера; 


И—5 Г 


7+. ии 7 7 
а | ;м,)=У [15... о, (2) 


а 
— частотные статистики цепи Маркова ЦМ(5,"); 
И цм (5, (чм) = Е = ЛХ ато а | и Е 
— распределение вероятностей (г-+1)-грамм цепи Маркова с частичными связями; 
ни(а) (м =уцмер емо т —5) — несмещенная и состоятельная частот- 
ная оценка вероятности Иди, (#;м°), ЛНе А”. 
Построим тест проверки гипотез Но: {х,} — РРСП, то есть 4... =М", //Н е А”"; 


Ну цме»): {х,} — цепь Маркова ЦМ(5,г), для которой матрица О имеет вид: 
1 "+ "+ 
Ч 29. (и) = иь,. //п = тео (3) 


где р аб =0, т. |= 0. Соотношение (3) определяет контигуальное 
ие = 1 “1 


семейство альтернатив [10] и означает, что при увеличении длительности и наблю- 
даемой последовательности, гипотеза Н! сближается с Но со скоростью От" > ). 
Обозначим 


И ) = [п Е 5) № Е (изм | М0 | я & А" (4) 


2 


Рцм(з,») = р Е о у (5) 


Лед” Л-ыеА № Л-аеА 


Теорема 1. При и -—› случайная величина рци‹,,) В случае справедливости 


гипотезы Но имеет 7” -распределение с И = № (м _ 1) степенями свободы. 
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При помощи теоремы 1 строится тест Тцме»„) [1] для проверки гипотез № и 
Ну,цме», основанный на частотных статистиках цепи Маркова с г частичными 
связями: 


1) по наблюдаемой последовательности Ху длительности и строятся частот- 


ные статистики И Их ( УМ ‚):/ НЕ ет согласно (2); 
2) согласно (4), (5) вычисляются статистики { а ( Е НЕ и, и бой: 


3) вычисляется Р-значение: Р =1-С', (р ПМ (5,5) ), где Су ( .) — функция у” -распре- 


деления с 0 степенями свободы; 
4) решение выносится с помощью решающего правила: 
принимается {Но, если Р>=; Ницме», если Р<=}, 
где Е (0,1) — заданный уровень значимости теста. 


Теорема 2. При и > © случайная величина рии(,„) В случае справедливости ги- 
потезы Н!цме» имеет нецентральное 7’ -распределение с И степенями свободы и 
параметром нецентральности 


1 
р (6) 


Я Цм(з,^) “. МН 
Над’ 


Следствие 1. Мощность теста Тцмеьь при п-—с удовлетворяет асимптоти- 
ческому соотношению: 


—1 
"—>1-б,.и. „(65 (@-=)), 
где Си, ‚(.) — функция нецентрального 7” -распределения с 0 степенями свобо- 


ды и параметром нецентральности аци(,,), определяемым (6). 


Следствие 2. Тест Тцмсь имеет большую мощность по сравнению с 
тестом Тим. 


Тест, основанный на частотных статистиках цепи 
Маркова переменной длины 


Цепь Маркова {х,} называется цепью Маркова переменной длины порядка 
5 [7], если ее вероятности одношаговых переходов имеют вид: 


и НЫ 5 5-1 5 

РР О: ь = } Л ЕЛ - (7) 
Соотношение (7) означает, что вероятность перехода в состояние /,+1 зависит не 

от всех 5 предыдущих состояний, а лишь от [= (7) предыдущих состояний. Если 


| (7 В ) = 5 , то получаем цепь Маркова 5-го порядка [9]. 


Функция [(:) определяется с помощью контекстной функции с(')= Л, 
(и) = |<) 


корневого дерева т , которое называется контекстным деревом. У каждой вершины в 
таком дереве может быть не более № потомков, поскольку каждому узлу (кроме 
корня) соответствует элемент из множества состояний А. Каждому значению 
контекстной функции соответствует ветвь данного дерева. 

Примем обозначения: 


1+1} __ 
И, )= 


‚ ЛЕА”. Контекстную функцию удобно представлять в виде 


11 


[[5.... ‚Л 2 ы ет ? Ла Е А ы (8) 


п- 
11 1=1 
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— частотные статистики цепи Маркова переменной длины; 
Г р ей 1 : 
и )= Рф, = Л›--> Анна = ЛьХы а Е 
— распределение вероятностей (/ +1) -грамм цепи Маркова переменной длины; 


Я ( Л") =у м "1 — несмещенная и состоятельная частотная оценка 
вероятности Идиид в. Л ЕТ, ЛиЕеА. 


Построим тест проверки гипотез Но: {х,} — РРСП, то есть а„=№"', ЛЕТ, 


ий 
ЛиеЕА; Ньцмид: 4х,} - цепь Маркова ЦМ(5,г), для которой матрица О имеет вид 
аналогичный (3): 


Чи» = Чи (п) = дБ И -5)>0, Е, Ле, (9) 


где У. ЕО. я Е _ 1 | 0. Соотношение (9) определяет контигуальное 
ЛЕА Ь, ЛЕТ, ЛиеА Л 


семейство альтернатив [10]. 
Определим случайные величины: 


ит (Л = м (вит )- №2), Лет, ЛиеА, (10) 


2 


Рцыпд = У, а а | (р 


Лет\ ЛиеА № ЛаеА 
Теорема 3. При п» случайная величина рииид В случае справедливости 


гипотезы Но имеет у’ -распределение с И =|т| (№ -1) степенями свободы. 


При помощи теоремы 3 строится тест Тимпд для проверки гипотез Но и Н',цмид, 
основанный на частотных статистиках цепи Маркова с 7 частичными связями: 


1) по наблюдаемой последовательности Х" длительности и строятся частотные 

1+1]. т/ : р 

статистики И  ЦИПД и ):/ 1 Еф, Ли Ее А} согласно (8); 
2)согласно (10), (11) вычисляются статистики а мА ЕТ, Л. Е А} и Рципд 


3) вычисляется Р-значение: Р=1-С(, [Рае р где С, (.) — функция 7’- 


распределения с И степенями свободы; 
4) решение выносится с помощью решающего правила: 
принимается { Но, если Р> =; Ни цмид, если Р<=}, 
где Е (0,1) — заданный уровень значимости теста. 


Теорема 4. При п-—>< случайная величина руид В случае справедливости 


гипотезы Н!цмпд имеет нецентральное у? -распределение с И степенями свободы и 
параметром нецентральности 


Я@цмпд = тя о Вр. (12) 
л 


ЕТ, Л! А 


Следствие 3. Мощность теста Тцмпд при п-— удовлетворяет асимпто- 
тическому соотношению: 


и—1- би, (62 (-=)), 


где би ( .) — функция нецентрального, у” -распределения с 0 степенями свободы 


и параметром нецентральности а/д определяемым (12). 
Следствие 4. Тест Тцмпд имеет большую мощность по сравнению с тестом Тцм. 
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Численные результаты 


Проведены численные эксперименты на модельных и реальных данных. 
Пример 1 (модельные данные). На рис. 1 представлена зависимость мощности 
тестов Тцме,„), Гцм для альтернативы Н!,цмб„) от п при & =0,05, М=4, 5 =6, г=4, 


0 “:; 
М, = (1,4,5,6) и матрице О, для которой: 1) Вр» м генерировались с 


помощью стандартного генератора равномерно распределенных на [-13,13] 


псевдослучайных чисел, а Ь =-—(6 В +...+Ь ); 2) функция нецентрального 
13 


Л,М- Л ,М-2 


Х°-распределения имеет И = 768 степеней свободы и параметр нецентральности 
Яци(;-) =138,5 . На этом рисунке квадратиками и кружками указаны значения оценки 


мощности № для Тцме»„) и Тцм соответственно, полученные с помощью метода 
Монте-Карло при числе прогонов, равном 1000; пунктирные линии — верхняя и 
нижняя 99 % доверительные границы для мощности; сплошная линия — теоре- 
тическое значение и’, найденное в следствии 1. Из рис. 1 видно, что для указанных 
значений параметров мощность теста Тиме,) приблизительно в 4 раза превосходит 
мощность теста Тим, что согласуется со следствием 2. Отметим, что при п © 
мощность тестов не стремится к 1, так как при увеличении и гипотеза Н! сближается 
с Но (контигуальная постановка задачи). 


250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000 3250 3500 И 


Рисунок 1 — Зависимость мощности от и 


Пример 2 (модельные данные). Исследовалась зависимость мощности тестов 
Тцмпд, Тим для альтернативы Н!,цмпд от п при = =0,05, М=2, 5 = 8 и контекстном 
дереве т, представленном на рис. 2. Эта зависимость проиллюстрирована на рис. 3 
(квадратики и кружки — значения оценки мощности № для Тимид и Тим соответ- 
ственно; пунктирные линии — верхняя и нижняя 99 % доверительные границы для 
мощности; сплошная линия — теоретическое значение у’, определяемое следствием 3). 
Из рис. 3 видно, что для этих значений параметров мощность теста Тцмпд прибли- 
зительно в 3 раза превосходит мощность теста Гцм, что согласуется со следствием 4. 
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250 500 750 1000 1250 1500 1750 2000 2250 2500 2750 3000 3250 3500 п 


Рисунок 3 — Зависимость мощности от и 


Пример 3 (реальные данные). Исследовался генератор псевдослучайных после- 
довательностей А5/1 [12], состоящий из трех коротких линейных регистров сдвига с 
обратной связью. Алгоритм А5/1 используется в сети СЗМ для обеспечения защиты 
информации на уровне базовая-мобильная станция. 

При тестировании генератора А5/1 с помощью теста Гицме„) его выходная после- 
довательность разбивалась на 12-битовые фрагменты, и каждый такой фрагмент 
рассматривался как буква алфавита А = а _ 1, мощности № =2". На вход теста 
Тимс» поступали 250 реализаций выходной последовательности длительности и бит 
каждая, сгенерированных этим криптоалгоритмом; параметры теста: 5=2, г=1, 
М*'=(), ==0,05. Результаты исследований приведены в табл. 1. Для РРСП при 
уровне значимости = =0,05 среднее число отклоненных из 250 реализаций равнялось 
бы 12,5. Таким образом, представленные в табл. 1 результаты свидетельствуют о 
сильной неслучайности выходной последовательности алгоритма А5/1. 


Таблица 1 — Результаты тестирования генератора А5/1 


Длина последовательности п, 
бит 

Количество (частота) 
отклоненных тестом Гцме») 
реализаций 


да” |542 |632“. | 7:2” | 8:2” 


37 59 72 91 105 
(0,148) | (0,236) | (0,288) | (0,364) | (0,420) 
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Заключение 


Построены статистические тесты на основе марковских частотных статистик, 
которые позволяют выявлять зависимости высокого порядка и специфической 
структуры. Проведенные компьютерные эксперименты на модельных и реальных 
данных иллюстрируют работоспособность построенных тестов. 
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Виявлення залежностей бльшо! глибини на основ! марковських моделей 

Побудован! два статичн! тести у випадковый послдовност! 1 знайдення в1дм!нностей 1мов1рного 
розподлу елементйв посллдовност! в1д равном1рного. Перший тест заснований на частотних ста- 
тистиках мереж! Маркова $-го порядку з г частковими зв’язками, другий — на частотних статистиках 
мереж! Маркова змнно! длини. Наявн! результати комп’ютерних експериментив. 


Уи.5. Крпати, А.1. Рациз м, М.И. Майбеи 

Реесйоп оЁ Ноп-Ога4ег Оереп4епсе$ Вазед оп Магко\у!ап Моде! 

ЗайзИса| дес1з10п пез Рог деесНоп оЁр12Н-ог4ег дереп4епстез ап4 Юг {езйпс оЁ5 Чипепзюопа] ап огпйу 
оф 415сгее ите зепез аге сопзгасе4. Тне г {ез{ 1$ Базе оп Неаиепсу зайзис$ оР МагКоу сваш у 
рагийа] соппесйоп$. Те зесопа 1езё 15 Базе оп Недиепсу 5ай$Нс$ оЁ уапаЫе 1еп2Ф МагКоу сБалп. 
Азутрюйс ргорег@ез оЁргорозе4 {е545 аге юипа. Матепса| гези$ аге г1уеп. 


Статья поступила в редакцию 02.07.2008. 
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